% Lexical structure
\hyphenation{white-space}
%%\vfill\eject
\chapter{词汇语法（Lexical syntax）和数据语法（datum syntax）}
\label{readsyntaxchapter}

Scheme的语法被组织进三个层次：
%
\begin{enumerate}
\item \textit{词汇语法}描述一个程序文本怎样被分成语义（lexemes）的序列。
\item \textit{数据语法}，按词汇语法制定，将\textit{句法数据（syntactic data）\mainindex{datum，数据}\mainindex{syntactic datum，句法数据}}的序列组织为语义的序列，其中一个句法数据递归地组织一个实体。
\item \textit{程序语法（program syntax）}按数据语法制定，实施进一步的句法数据含义的组织和分配。（本句已根据勘误表修改。）
\end{enumerate}
%
句法数据（也叫做\textit{外部表示（external representations）\index{external representation}}）兼作为对象的一个符号，且Scheme的\rsixlibrary{io ports}库（见库的\extref{lib:portsiosection}{Port I/O}小节）提供了{\cf get-datum}和{\cf put-datum}过程用作句法数据的读写，在它们的文本表示和对应的对象之间进行转换。每一个句法数据表示一个对应的\defining{数据值}。一个句法数据可以使用{\cf quote}在一个程序中获得对应的数据值（见第\ref{quote}节）。

Scheme源程序包含句法数据和（不重要的）注释。Scheme源程序中的句法数据叫做\textit{形式（forms）}\mainindex{form，形式}。（嵌套在另一个形式中的形式叫做\defining{子形式（subform）}。）因此，Scheme的语法有如下性质，字符的任何序列是一个形式也是一个代表一些对象的句法数据。这可能导致混淆，因为在脱离上下文的情况下，一个给定的字符序列是用于对象的表示还是一个程序的文本可能不是很明显。它可能也是使Scheme强大的原因，因为它使得编写解释器或编译器这类把程序当作对象（或相反）的程序变得简单。

一个数据值可能有多个不同的外部表示。比如“{\tt \#e28.000}”和“{\tt\#x1c}”都是表示精确整数对象28的句法数据，句法数据“{\tt(8 13)}”, “{\tt( 08 13 )}”和“{\tt(8 .\ (13 .\ ()))}”都表示包含精确整数对象8和13的表。表示相同对象（从{\cf equal?}的意义来说；见\ref{equal?}小节）的句法数据作为程序的形式来说总是等价的。

因为句法数据和数据值之间密切的对应关系，所以当根据上下文精确含义显而易见时，本报告有时使用术语\defining{数据（datum）}来表示句法数据或数据值。

一个实现不允许以任何方式扩展词汇或数据语法，仅有一个例外：对任何不是{\cf r6rs}内建的\meta{identifier}（见\ref{identifiersection}小节），实现不需要把{\cf \sharpsign{}!\meta{identifier}}当作一个语法错误，且实现可以使用特定的{\cf \sharpsign{}!}前缀的标识符作为指示接下来的输入包含标准词汇和数据语法的扩展的标记。语法{\cf \sharpsign{}!r6rs}可被用作预示接下来的输入是用本报告中描述的词汇语法和数据语法写成的。或者，{\cf \sharpsign{}!r6rs}被当作注释对待，见\ref{whitespaceandcomments}小节。

\section{符号（Notation）}
\label{BNF}

Scheme的形式语法（formal syntax）被用扩展的BNF写成。非终结符（Non-terminals）使用尖角括号进行书写。非终结符名字的大小写是无关紧要的。

语法中的空格都是为了便于阅读而存在的。\meta{Empty}代表空字符串。

对BNF的以下扩展可以使描述更加简洁：\arbno{\meta{thing}}代表零个或更多的\meta{thing}；\atleastone{\meta{thing}}代表至少一个\meta{thing}。

一些非终结符的名字表示相同名字的Unicode标量值：\meta{character tabulation} (U+0009)，\meta{linefeed} (U+000A)，\meta{line tabulation} (U+000B)，\meta{form feed} (U+000C)，\meta{carriage return} (U+000D),
\meta{space} (U+0020)，\meta{next line} (U+0085)，\meta{line
  separator} (U+2028)和\meta{paragraph separator} (U+2029)。

\section{词汇语法（Lexical syntax）}
\label{lexicalsyntaxsection}

词汇语法决定了怎样将字符的序列分隔成语义（lexemes）\index{lexeme，语义}的序列，省略不重要的部分如注释和空白。字符序列被假定是Unicode标准\cite{Unicode}的文本。词汇语法的一些语义，比如标识符，数字对象的表示，字符串等等，是数据语法中的句法数据，且因此代表对象。除了语法的形式解释（formal account），本节还描述了这些句法数据表示什么数据值。

注释中描述的词汇语法包含\meta{datum}的一个向前引用，这是数据语法的一部分。然而，作为注释，这些\meta{datum}在语法中并不起什么重要的作用。

除了布尔，数字对象以及用16进制表示的Unicode标量是不区分大小写的，其它情况下大小写是敏感的。比如，{\cf \#x1A}和{\cf \#X1a}是一样的。然而，标识符{\cf Foo}和标识符{\cf FOO}是有区别的。

\subsection{形式解释（Formal account）}
\label{lexicalgrammarsection}

\meta{Interlexeme space}可以出现在任意词位（lexeme）的两侧，但不允许出现在一个词位的中间。

\hyper{Identifier}, {\cf .}, \hyper{number}, \hyper{character}和\hyper{boolean}必须被一个\meta{delimiter}或输入的结尾终结。

下面的两个字符保留用作未来的语言扩展：{\tt \verb"{" \verb"}"}

（以下规则已根据勘误表修改。）

\begin{grammar}%
\meta{lexeme} \: \meta{identifier} \| \meta{boolean} \| \meta{number}\index{identifier}
\>  \| \meta{character} \| \meta{string}
\>  \| ( \| ) \| \openbracket{} \| \closedbracket{} \| \sharpsign( \| \sharpsign{}vu8( | \singlequote{} \| \backquote{} \| , \| ,@ \| {\bf.}
\>  \| \sharpsign\singlequote{} \| \sharpsign\backquote{} \| \sharpsign, \| \sharpsign,@
\meta{delimiter} \: ( \| ) \| \openbracket{} \| \closedbracket{} \| " \| ; \| \sharpsign{}
\>  \| \meta{whitespace}
\meta{whitespace} \: \meta{character tabulation}
\> \| \meta{linefeed} \| \meta{line tabulation} \| \meta{form feed}
\> \| \meta{carriage return} \| \meta{next line}
\> \| \meta{any character whose category is Zs, Zl, or Zp}
\meta{line ending} \: \meta{linefeed} \| \meta{carriage return}
\> \| \meta{carriage return} \meta{linefeed} \| \meta{next line}
\> \| \meta{carriage return} \meta{next line} \| \meta{line separator}
\meta{comment} \: ; \= $\langle$\rm all subsequent characters up to a
                    \>\ \rm \meta{line ending} or \meta{paragraph separator}$\rangle$\index{comment}
\qquad \= \| \meta{nested comment}
\> \| \#; \meta{interlexeme space} \meta{datum}
\> \| \#!r6rs
\meta{nested comment} \: \#| \= \meta{comment text}
\> \arbno{\meta{comment cont}} |\#
\meta{comment text} \: \= $\langle$\rm character sequence not containing
\>\ \rm {\tt \#|} or {\tt |\#}$\rangle$
\meta{comment cont} \: \meta{nested comment} \meta{comment text}
\meta{atmosphere} \: \meta{whitespace} \| \meta{comment}
\meta{interlexeme space} \: \arbno{\meta{atmosphere}}%
\end{grammar}

\label{extendedalphas}
\label{identifiersyntax}

% This is a kludge, but \multicolumn doesn't work in tabbing environments.
\setbox0\hbox{\cf\meta{variable} \goesto{} $\langle$}

\begin{grammar}%
\meta{identifier} \: \meta{initial} \arbno{\meta{subsequent}}
 \>  \| \meta{peculiar identifier}
\meta{initial} \: \meta{constituent} \| \meta{special initial}
 \> \| \meta{inline hex escape}
\meta{letter} \:  a \| b \| c \| ... \| z
\> \| A \| B \| C \| ... \| Z
\meta{constituent} \: \meta{letter}
 \> \| $\langle${\rm any character whose Unicode scalar value is greater than}
 \> \quad {\rm 127, and whose category is Lu, Ll, Lt, Lm, Lo, Mn,}
 \> \quad {\rm Nl, No, Pd, Pc, Po, Sc, Sm, Sk, So, or Co}$\rangle$
\meta{special initial} \: ! \| \$ \| \% \| \verb"&" \| * \| / \| : \| < \| =
 \>  \| > \| ? \| \verb"^" \| \verb"_" \| \verb"~"
\meta{subsequent} \: \meta{initial} \| \meta{digit}
 \>  \| \meta{any character whose category is Nd, Mc, or Me}
 \>  \| \meta{special subsequent}
\meta{digit} \: 0 \| 1 \| 2 \| 3 \| 4 \| 5 \| 6 \| 7 \| 8 \| 9
\meta{hex digit} \: \meta{digit}
 \> \| a \| A \| b \| B \| c \| C \| d \| D \| e \| E \| f \| F
\meta{special subsequent} \: + \| - \| .\ \| @
\meta{inline hex escape} \: \backwhack{}x\meta{hex scalar value};
\meta{hex scalar value} \: \atleastone{\meta{hex digit}}
\meta{peculiar identifier} \: + \| - \| ... \| -> \arbno{\meta{subsequent}}
\meta{boolean} \: \schtrue{} \| \#T \| \schfalse{} \| \#F
\meta{character} \: \#\backwhack{}\meta{any character}
 \>  \| \#\backwhack{}\meta{character name}
 \>  \| \#\backwhack{}x\meta{hex scalar value}
\meta{character name} \: nul \| alarm \| backspace \| tab
\> \| linefeed \| newline \| vtab \| page \| return
\> \| esc \| space \| delete
\meta{string} \: " \arbno{\meta{string element}} "
\meta{string element} \: \meta{any character other than \doublequote{} or \backwhack}
 \> \| \backwhack{}a \| \backwhack{}b \| \backwhack{}t \| \backwhack{}n \| \backwhack{}v \| \backwhack{}f \| \backwhack{}r
 \>  \| \backwhack\doublequote{} \| \backwhack\backwhack
 \>  \| \backwhack\arbno{\meta{intraline whitespace}}\meta{line ending}
 \>  \hspace*{4em}\arbno{\meta{intraline whitespace}}
 \>  \| \meta{inline hex escape}
\meta{intraline whitespace} \: \meta{character tabulation}
\> \| \meta{any character whose category is Zs}%
\end{grammar}

\meta{Hex scalar value}表示0到\sharpsign{}x10FFFF的Unicode标量值，这个范围要排除$\left[\sharpsign{}x\textrm{D800}, \sharpsign{}x\textrm{DFFF}\right]$。

% \linebreak：强制换行，与\newline的区别为\linebreak的当前行分散对齐。
\label{numbersyntax}%
让\hbox{$R = 2$，$8$，$10$}和$16$，然后重复下面的规则\meta{num $R$}，\linebreak{}\meta{complex $R$}，\meta{real $R$}，\meta{ureal $R$}，\meta{uinteger $R$}和\linebreak{}\meta{prefix $R$}。没有\meta{decimal $2$}，\meta{decimal $8$}和\meta{decimal $16$}的规则，这意味着包含小数点和指数的数字表示必须使用十进制基数。

下面的规则中，大小写是不重要的。（本句根据勘误表添加。）

（以下规则已根据勘误表修改。）


\begin{grammar}%
\meta{number} \: \meta{num $2$} \| \meta{num $8$}
   \>  \| \meta{num $10$} \| \meta{num $16$}
\meta{num $R$} \: \meta{prefix $R$} \meta{complex $R$}
\meta{complex $R$} \: %
         \meta{real $R$} %
      \| \meta{real $R$} @ \meta{real $R$}
   \> \| \meta{real $R$} + \meta{ureal $R$} i %
      \| \meta{real $R$} - \meta{ureal $R$} i
   \> \| \meta{real $R$} + \meta{naninf} i %
      \| \meta{real $R$} - \meta{naninf} i
   \> \| \meta{real $R$} + i %
      \| \meta{real $R$} - i
   \> \| + \meta{ureal $R$} i %
      \| - \meta{ureal $R$} i
   \> \| + \meta{naninf} i %
      \| - \meta{naninf} i
   \> \| + i %
      \| - i
\meta{real $R$} \: \meta{sign} \meta{ureal $R$}
  \> \| + \meta{naninf} \| - \meta{naninf}
\meta{naninf} \: nan.0 \| inf.0
\meta{ureal $R$} \: %
         \meta{uinteger $R$}
   \> \| \meta{uinteger $R$} / \meta{uinteger $R$}
   \> \| \meta{decimal $R$} \meta{mantissa width}
\meta{decimal $10$} \: %
         \meta{uinteger $10$} \meta{suffix}
   \> \| . \atleastone{\meta{digit $10$}} \meta{suffix}
   \> \| \atleastone{\meta{digit $10$}} . \arbno{\meta{digit $10$}} \meta{suffix}
\meta{uinteger $R$} \: \atleastone{\meta{digit $R$}}
\meta{prefix $R$} \: %
         \meta{radix $R$} \meta{exactness}
   \> \| \meta{exactness} \meta{radix $R$}
\end{grammar}

\begin{grammar}%
\meta{suffix} \: \meta{empty}
   \> \| \meta{exponent marker} \meta{sign} \atleastone{\meta{digit $10$}}
\meta{exponent marker} \: e \| E \| s \| S \| f \| F
   \> \| d \| D \| l \| L
\meta{mantissa width} \: \meta{empty}
   \> \| | \atleastone{\meta{digit 10}}
\meta{sign} \: \meta{empty}  \| + \|  -
\meta{exactness} \: \meta{empty}
   \> \| \#i\sharpindex{i} \| \#I \| \#e\sharpindex{e} \| \#E
\meta{radix 2} \: \#b\sharpindex{b} \| \#B
\meta{radix 8} \: \#o\sharpindex{o} \| \#O
\meta{radix 10} \: \meta{empty} \| \#d \| \#D
\meta{radix 16} \: \#x\sharpindex{x} \| \#X
\meta{digit 2} \: 0 \| 1
\meta{digit 8} \: 0 \| 1 \| 2 \| 3 \| 4 \| 5 \| 6 \| 7
\meta{digit 10} \: \meta{digit}
\meta{digit 16} \: \meta{hex digit}
\end{grammar}

\subsection{换行符}
\label{lineendings}

在Scheme单行注释（见\ref{whitespaceandcomments}小节）和字符串字面量中，换行符是重要的。在Scheme源代码中，在\meta{line ending}中的任意换行符都指示一个行的结束。此外，两字符的换行符\meta{carriage return} \meta{linefeed}和\meta{carriage return} \meta{next line}都仅表示一个单独的换行。

在一个字符串字面量中，一个之前没有{\cf\backwhack}的\hyper{line ending}表示一个换行字符（linefeed character），这个字符是Scheme中的标准换行符。

\subsection{空白和注释}
\label{whitespaceandcomments}

\defining{空白（Whitespace）}字符是空格，换行，回车，字符制表符，换页符，行制表符和其它种类是Zs，Zl或Zp的任意其它字符。空白字符用于提高可读性和必要地相互分隔词位。空白可以出现在两个词位中间，但不允许出现在一个词位的中间。空白字符也可以出现在一个字符串中，但此时空白是有意义的。

词汇语法包括一些注释形式。在所有的情况下，注释对Scheme是不可见的，除非它们作为分隔符，所以，比如，一个注释不能出现在标识符或一个数字对象的表示的中间。

一个分号（{\tt;}）指示一个行注释的开始。\mainindex{comment，注释}\mainschindex{;}注释一直延续到分号出现的那一行的结尾。

另一个指示注释的方法是在\hyper{datum}（参见\ref{datumsyntax}节）前加一个前缀 {\tt \#;}，可选的在\hyper{datum}前加上\meta{interlexeme space}。注释包括注释前缀{\tt \#;}和\hyper{datum}。这个符号用作“注释掉”代码段。

块注释可用正确嵌套的{\tt \#|}\index{#"|@\texttt{\sharpsign\verticalbar}}\index{"|#@\texttt{\verticalbar\sharpsign}}和{\tt |\#}指示。

\begin{scheme}
\#|
   FACT过程计算一个非负数的阶乘。
|\#
(define fact
  (lambda (n)
    ;; 基础条件（base case）
    (if (= n 0)
        \#;(= n 1)
        1       ; *的单位元（identity）
        (* n (fact (- n 1))))))%
\end{scheme}

词位{\cf \sharpsign{}!r6rs}，表示接下来的输入是用本报告中描述的词汇语法和数据语法写成的，另外，它也被当作注释对待。

\subsection{标识符（Identifiers）}
\label{identifiersection}

其他程序设计语言认可的大多数标识符（identifiers）\mainindex{标识符，identifier}也能被Scheme接受。通常，第一个字符不是任何数值的字母、数字和“扩展字符”序列就是一个标识符。此外，\ide{+}，\ide{-}和\ide{...}都是标识符，以两个字符序列\ide{->}开始的字母、数字和“扩展字符”序列也是。这里有一些标识符的例子：

\begin{scheme}
lambda         q                soup
list->vector   {+}                V17a
<=             a34kTMNs         ->-
the-word-recursion-has-many-meanings%
\end{scheme}

扩展字符可以像字母那样用于标识符内。以下是扩展字符：

\begin{scheme}
!\ \$ \% \verb"&" * + - . / :\ < = > ? @ \verb"^" \verb"_" \verb"~" %
\end{scheme}

此外，所有Unicode标量值大于127且类型属于Lu, Ll, Lt, Lm, Lo, Mn, Mc, Me, Nd, Nl, No, Pd, Pc, Po, Sc, Sm, Sk, So或Co的字符都可以被用在标识符中。当通过一个\meta{inline hex escape}表示的时候，任何字符都可以用在标识符中。比如，标识符\verb|H\x65;llo|和标识符\verb|Hello|是一样的，标识符\verb|\x3BB;|和标识符$\lambda$是一样的。

在Scheme程序中，任意标识符可作为一个变量\index{variable，变量}或一个语法关键词（syntactic keyword）\index{syntactic keyword，语法关键词}（见\index{variable}和\ref{macrosection}节）。任何标识符也可以作为一个句法数据，在这种情况下，它表示一个\textit{符号（symbol）}\index{symbol，符号}（见\ref{symbolsection}小节）。

\subsection{布尔（Booleans）}

标准布尔对象真和假有外部表示\schtrue{}和\schfalse.\sharpindex{t}\sharpindex{f}

\subsection{字符（Characters）}

字符可以用符号\sharpsign\backwhack\hyper{character}\index{#\@\texttt{\sharpsign\backwhack}}或\sharpsign\backwhack\hyper{character name}或\linebreak{}\sharpsign\backwhack{}x\meta{hex scalar value}表示。

比如：

\texonly
\newcommand{\extab}{\>}
\begin{tabbing}
{\cf\#\backwhack{}x0000000000}\=\kill
\endtexonly
\htmlonly
\newcommand{\extab}{&}
\begin{tabular}{ll}
\endhtmlonly
{\cf\#\backwhack{}a}          \extab \textrm{小写字母a}\\
{\cf\#\backwhack{}A}          \extab \textrm{大写字母A}\\
{\cf\#\backwhack{}(}          \extab \textrm{左小括号}\\
{\cf\#\backwhack{}}           \extab \textrm{空格}\\
{\cf\#\backwhack{}nul}        \extab \textrm{U+0000}\\
{\cf\#\backwhack{}alarm}      \extab \textrm{U+0007}\\
{\cf\#\backwhack{}backspace}  \extab \textrm{U+0008}\\
{\cf\#\backwhack{}tab}        \extab \textrm{U+0009}\\
{\cf\#\backwhack{}linefeed}   \extab \textrm{U+000A}\\
{\cf\#\backwhack{}newline}   \extab \textrm{U+000A}\\
{\cf\#\backwhack{}vtab}       \extab \textrm{U+000B}\\
{\cf\#\backwhack{}page}       \extab \textrm{U+000C}\\
{\cf\#\backwhack{}return}     \extab \textrm{U+000D}\\
{\cf\#\backwhack{}esc}        \extab \textrm{U+001B}\\
{\cf\#\backwhack{}space}      \extab \textrm{U+0020}\\
 \extab 表示一个空格时优先使用这种方法\\
{\cf\#\backwhack{}delete}     \extab \textrm{U+007F}\\[1ex]
{\cf\#\backwhack{}xFF}        \extab \textrm{U+00FF}\\
{\cf\#\backwhack{}x03BB}      \extab \textrm{U+03BB}\\
{\cf\#\backwhack{}x00006587}  \extab \textrm{U+6587}\\
{\cf\#\backwhack{}\(\lambda\)} \extab \textrm{U+03BB}\\[1ex]
{\cf\#\backwhack{}x0001z}     \extab \exception{\&lexical}\\
{\cf\#\backwhack{}\(\lambda\)x}         \extab \exception{\&lexical}\\
{\cf\#\backwhack{}alarmx}     \extab \exception{\&lexical}\\
{\cf\#\backwhack{}alarm x}    \extab \textrm{U+0007}\\
 \extab 跟着{\cf{}x}\\
{\cf\#\backwhack{}Alarm}      \extab \exception{\&lexical}\\
{\cf\#\backwhack{}alert}      \extab \exception{\&lexical}\\
{\cf\#\backwhack{}xA}         \extab \textrm{U+000A}\\
{\cf\#\backwhack{}xFF}        \extab \textrm{U+00FF}\\
{\cf\#\backwhack{}xff}        \extab \textrm{U+00FF}\\
{\cf\#\backwhack{}x ff}       \extab \textrm{U+0078}\\
 \extab 跟着另外一个数据，{\cf{}ff}\\
{\cf\#\backwhack{}x(ff)}      \extab \textrm{U+0078}\\
 \extab 跟着另外一个数据，\\
 \extab 一个被括号括着的{\cf{}ff}\\
{\cf\#\backwhack{}(x)}        \extab \exception{\&lexical}\\
{\cf\#\backwhack{}(x}         \extab \exception{\&lexical}\\
{\cf\#\backwhack{}((x)}       \extab \textrm{U+0028}\\
 \extab 跟着另外一个数据,\\
 \extab 在括号内的{\cf{}x}\\
{\cf\#\backwhack{}x00110000}  \extab \exception{\&lexical}\\
 \extab 超出范围\\
{\cf\#\backwhack{}x000000001} \extab \textrm{U+0001}  \\
{\cf\#\backwhack{}xD800}      \extab \exception{\&lexical}\\
 \extab 在被排除的范围
\htmlonly
\end{tabular}
\endhtmlonly
\texonly
\end{tabbing}
\endtexonly

（记号\exception{\&lexical}表示有问题的行违反了词汇语法。）

在\sharpsign\backwhack\hyper{character}和\sharpsign\backwhack\hyper{character name}中，大小写是敏感的，但在{\cf\sharpsign\backwhack{}x}\meta{hex scalar value}中\meta{hex scalar value}的大小写是不敏感的。（上句已根据勘误表进行修改。）一个\meta{character}必须跟着一个\meta{delimiter}或输入的结束。此规则解决了关于命名字符的各种歧义，比如，要求字符序列“{\tt\sharpsign\backwhack space}”被解释为一个空白字符而不是字符“{\tt\sharpsign\backwhack s}”和跟着的标识符“{\tt pace}”。

\begin{note}
  由于反向兼容的原因我们保留符号{\cf\sharpsign\backwhack{}newline}。它已经过时了；应使用{\cf\sharpsign\backwhack{}linefeed}代替。
\end{note}

\subsection{字符串（Strings）}

\vest 字符串使用被双引号（{\cf "}）括起来的字符序列表示。在字符串字面量中，各种转义序列（escape sequences）\mainindex{escape sequence，转义序列}被用来表示字符，而不是字符自己。转义序列总是以一个反斜杠（\backwhack{}）开始：

\begin{itemize}
\item{\cf\backwhack{}a} : 响铃（alarm）, U+0007
\item{\cf\backwhack{}b} : 退格（backspace）, U+0008
\item{\cf\backwhack{}t} : 制表（character tabulation）, U+0009
\item{\cf\backwhack{}n} : 换行（linefeed）, U+000A
\item{\cf\backwhack{}v} : 行制表（line tabulation）, U+000B
\item{\cf\backwhack{}f} : 换页（formfeed）, U+000C
\item{\cf\backwhack{}r} : 回车（return）, U+000D
\item{\cf\backwhack{}}\verb|"| : 双引号（doublequote）, U+0022
\item{\cf\backwhack{}\backwhack{}} : 反斜杠（backslash）, U+005C
\item{\cf\backwhack{}}\hyper{intraline whitespace}\hyper{line ending}\\\hspace*{2em}\hyper{intraline whitespace} : 空
\item{\cf\backwhack{}x\meta{hex scalar value};} : 指定字符（注意结尾的分号）。
\end{itemize}

这些转义序列是大小写敏感的，除了\meta{hex scalar value}中的字母数字（alphabetic digits）可以是大写也可以是小写。

字符串中反斜杠后的任意其它字符都是违反语法的。除了行结尾外，任意在转义序列外且不是一个双引号的字符在字符串字面量中代表它自己。比如，但字符字符串字面量{\tt "$\lambda$"}（双引号，一个小写的lambda，双引号）和{\tt "\backwhack{}x03bb;"}表示一样的字符串。一个前面不是反斜杠的行结尾表示一个换行字符。

例如：

\texonly
\begin{tabbing}
{\cf "\backwhack{}x0000000000;"} \=\kill
\endtexonly
\htmlonly
\begin{tabular}{ll}
\endhtmlonly
{\cf "abc"} \extab  \textrm{U+0061, U+0062, U+0063}\\
{\cf "\backwhack{}x41;bc"} \extab  {\cf "Abc"} ; \textrm{U+0041, U+0062, U+0063}\\
{\cf "\backwhack{}x41; bc"} \extab {\cf "A bc"}\\
 \extab U+0041, U+0020, U+0062, U+0063\\
{\cf "\backwhack{}x41bc;"} \extab  \textrm{U+41BC}\\
{\cf "\backwhack{}x41"} \extab \exception{\&lexical}\\
{\cf "\backwhack{}x;"} \extab \exception{\&lexical}\\
{\cf "\backwhack{}x41bx;"} \extab \exception{\&lexical}\\
{\cf "\backwhack{}x00000041;"} \extab  {\cf "A"} ; \textrm{U+0041}\\
{\cf "\backwhack{}x0010FFFF;"} \extab \textrm{U+10FFFF}\\
{\cf "\backwhack{}x00110000;"} \extab  \exception{\&lexical}\\
 \extab 超出范围\\
{\cf "\backwhack{}x000000001;"} \extab \textrm{U+0001}\\
{\cf "\backwhack{}xD800;"} \extab \exception{\&lexical}\\
 \extab 在被排除的范围\\
{\cf "A}\\
{\cf bc"} \extab \textrm{U+0041, U+000A, U+0062, U+0063}\\
 \extab 如果{\cf{}A}后面没有空格
\htmlonly
\end{tabular}
\endhtmlonly
\texonly
\end{tabbing}
\endtexonly

\subsection{数字（Numbers）}
\label{numbernotations}

数字对象外部表示的语法在形式语法的\meta{number}规则中被正式描述。在数字对象的外部表示中，大小写是不重要的。

数字对象的表示可以通过特定的基数前缀被写作二进制，八进制，十进制和十六进制。基数前缀是{\cf \#b}\sharpindex{b}（二进制），{\cf \#o}\sharpindex{o}（八进制），{\cf \#d}\sharpindex{d}（十进制）和{\cf \#x}\sharpindex{x}（十六进制）。在没有基数前缀时，一个数字对象的表示被假设是十进制的。

一个数字对象的表示可通过前缀被指定为精确的货非精确的。前缀{\cf \#e}\sharpindex{e}表示精确的，前缀{\cf \#i}\sharpindex{i}表示非精确的。如果使用基数前缀的话，精确性前缀可使用在其之前或之后。如果一个数字对象的表示没有精确性前缀，则在下列情况是非精确的，包含一个小数点，指数，或一个非空的尾数宽度（mantissa width），否则它是精确的。

在一个非精确数可以有不同精度的系统中，指定一个常数的精度可能是有用的。如果这样的话，数字对象的表示可以用一个指示非精确数预期精度的指数标记写成。字母{\cf s}, {\cf f}, {\cf d}和{\cf l}分别表示使用\var{short}，\var{single}，\var{double}和\var{long}精度。（当内部非精确表示少于四种时，这四个精度定义被映射到当前可用的定义。例如，只有两种内部表示的实现可以将short和single映射为一种精度，将long和double映射为一种）。另外，指数标记{\cf e}指明了Scheme实现的缺省精度。缺省精度应达到或超过\var{double}的精度，但Scheme实现也许会希望用户可设置此缺省精度。

\begin{scheme}
3.1415926535898F0
       {\rm{}舍入到single, 大概是} 3.141593
0.6L0
       {\rm{}扩展到long, 大概是} .600000000000000%
\end{scheme}

一个有非空尾数宽度数字对象的表示，{\cf \var{x}|\var{p}}，代表有\var{p}位有效数字的\var{x}的最好的二进制浮点数近似。比如，{\cf 1.1|53}是使用IEEE double精度的1.1最好的近似的表示。如果\var{x}是一个不包含竖线的非精确实数对象的外部表示，那么它的数值应该被认为有53或更多的尾数宽度。

如果实际可行的话，实数对象使用二进制浮点表示的实现应该用\var{p}位精度表示{\cf \var{x}|\var{p}}，或者如果实际不行的话，应该使用大于\var{p}位精度的实现，或者如果以上两个都不行的话，应该使用实现中最大的精度。

\begin{note}
有效数字的精度不应该和用作表示有效数字的位的数量相混淆。在IEEE浮点标准中，比如，有效数字的最高有效位暗示在single和double精度之间但明确使用扩展精度。不管那一位是不是明确指定的都不影响数学精度。使用二进制浮点的实现，默认的精度可通过调用下面的过程计算：

\begin{scheme}
(define (precision)
  (do ((n 0 (+ n 1))
       (x 1.0 (/ x 2.0)))
    ((= 1.0 (+ 1.0 x)) n)))
\end{scheme}
\end{note}

\begin{note}
当优先使用的浮点表示是IEEE double精度时，{\cf |\var{p}}后缀不应该总是被省略：非规范化浮点数在精度上有所松懈，所以它们的外部表示应该加上一个使用有效数字真实宽度的{\cf |\var{p}}后缀。
\end{note}

字面量{\cf +inf.0}和{\cf -inf.0}分别表示正无穷大和负无穷大。字面量{\cf +nan.0}表示非数，它是{\cf (/ 0.0 0.0)}的结果，且同样也可以表示其它非数。字面量{\cf -nan.0}也表示一个非数。（上句根据勘误表添加。）

如果\var{x}是一个非精确实数对象的外部表示且不包括竖线且不包括除了{\cf e}之外的指数标记，这个非精确实数对象表示一个浮点数（见库的第\extref{lib:flonumssection}{Flonums}小节）。其它非精确实数对象外部表示的一些或所有也可以表示浮点数，但这不是本报告要求的。

\section{数据语法（Datum syntax）}
\label{datumsyntaxsection}

数据语法按照词汇语法中定义的\meta{lexeme}的序列描述句法数据（syntactic data）\mainindex{syntactic datum，句法数据}的语法。

句法数据包括本报告前面章节描述的语义数据以及以下用于组织复合数据的结构：
%
\begin{itemize}
\item 点对和表，被\verb|( )|或\verb|[ ]| （见\ref{pairlistsyntax}小节）括起来
\item 向量（见\ref{vectorsyntax}小节）
\item 字节向量（bytevectors）（见\ref{bytevectorsyntax}小节）
\end{itemize}

\subsection{形式解释（Formal account）}
\label{datumsyntax}

下面的语法按照定义在\ref{lexicalsyntaxsection}节的语法的各种语义描述句法数据的语法：

\begin{grammar}%
\meta{datum} \: \meta{lexeme datum}
\>  \| \meta{compound datum}
\meta{lexeme datum} \: \meta{boolean} \| \meta{number}
\>  \| \meta{character} \| \meta{string} \|  \meta{symbol}
\meta{symbol} \: \meta{identifier}
\meta{compound datum} \: \meta{list} \| \meta{vector} \| \meta{bytevector}
\meta{list} \: (\arbno{\meta{datum}}) \| [\arbno{\meta{datum}}]
\>    \| (\atleastone{\meta{datum}} .\ \meta{datum}) \| [\atleastone{\meta{datum}} .\ \meta{datum}]
\>    \| \meta{abbreviation}
\meta{abbreviation} \: \meta{abbrev prefix} \meta{datum}
\meta{abbrev prefix} \: ' \| ` \| , \| ,@
\>    \| \#' | \#` | \#, | \#,@
\meta{vector} \: \#(\arbno{\meta{datum}})
\meta{bytevector} \: \#vu8(\arbno{\meta{u8}})
\meta{u8} \: $\langle${\rm any \meta{number} representing an exact}
 \>\>\quad\quad {\rm integer in $\{0, \ldots, 255\}$}$\rangle$%
\end{grammar}

\subsection{点对（Pairs）和表（lists）}
\label{pairlistsyntax}

表示值对和值的列表（见\ref{listsection}节）的列表和点对数据使用小括号和中括号表示。规则\meta{list}中匹配的中括号对等价于匹配的小括号对。

Scheme点对的句法数据最常用的符号是“点”符号\hbox{\cf (\hyperi{datum} .\ \hyperii{datum})}，其中\hyperi{datum}是car区域的值的表示，\hyperii{datum}是cdr区域的值的表示。比如{\cf (4 .\ 5)}是一个car是4，cdr是5的点对。

表可以使用一个改进的记号：表中的元素被简单地括进小括号中并用空格分隔。空表（empty list）\index{empty list，空表}用 {\tt()}表示。比如：

\begin{scheme}
(a b c d e)%
\end{scheme}

和

\begin{scheme}
(a . (b . (c . (d . (e . ())))))%
\end{scheme}

作为符号的表是等价的表示。

一个通用的规则是，如果一个点跟着一个左小括号，则在外部表示中可以省略这个点，左小括号和对应的右小括号。

符号序列“{\cf (4 .\ 5)}”是一个点对的外部表示，而不是一个计算结果为点对的表达式。类似的，符号序列“{\tt(+ 2 6)}”{\em{}不}是整数8的外部表示，虽然它{\em{}是}一个计算结果是整数8的表达式（在\rsixlibrary{base}库的语言中）；当然，它是一个句法数据，这个句法数据表示一个三个元素的表，这个表的元素是符号{\tt +}，整数2和6。

\subsection{向量（Vectors）}
\label{vectorsyntax}

表示向量对象（见\ref{vectorsection}小节）的向量数据使用{\tt\#(\hyper{datum} \dotsfoo)}表示。比如：一个长度是3，且0号元素位置是数字对象零，1号元素位置是表{\cf (2 2 2 2)}，2号元素位置是字符串{\cf "Anna"}，的向量可以如下表示：

\begin{scheme}
\#(0 (2 2 2 2) "Anna")%
\end{scheme}

这是一个向量的外部表示，而不是一个计算结果为向量的表达式。

\subsection{字节向量（Bytevectors）}
\label{bytevectorsyntax}

表示字节向量（见库的第\extref{lib:bytevectorschapter}{Bytevectors}章）的向量数据使用符号{\tt\#vu8(\hyper{u8} \dotsfoo)}表示，其中\hyper{u8}表示字节向量的八位字节（octets）。比如：一个长度是3且包含八位字节2，24和123的字节向量可以如下表示：

\begin{scheme}
\#vu8(2 24 123)%
\end{scheme}

这是一个字节向量的外部表示，也是一个计算结果为字节向量的表达式。

\subsection{Abbreviations}\unsection
\label{abbreviationsection}

\begin{entry}{%
\pproto{\singlequote\hyper{datum}}{}
\pproto{\backquote\hyper{datum}}{}
\pproto{,\hyper{datum}}{}
\pproto{,\atsign\hyper{datum}}{}
\pproto{\#'\hyper{datum}}{}
\pproto{\#\backquote\hyper{datum}}{}
\pproto{\#,\hyper{datum}}{}
\pproto{\#,@\hyper{datum}}{}
}

上面的每一个都是一个缩写：
\\\quad\schindex{'}\singlequote\hyper{datum}
是{\cf (quote \hyper{datum})}的缩写，
\\\quad\schindex{`}\backquote\hyper{datum}
是{\cf (quasiquote \hyper{datum})}的缩写，
\\\quad\schindex{,}{\cf,}\hyper{datum}
是{\cf (unquote \hyper{datum})}的缩写，
\\\quad\index{,@\texttt{,\atsign}}{\cf,}\atsign\hyper{datum}
是{\cf (unquote-splicing \hyper{datum})}的缩写，
\\\quad\sharpindex{'}{\cf\#'}\hyper{datum}
是{\cf (syntax \hyper{datum})}的缩写，
\\\quad\sharpindex{`}{\cf\#`}\hyper{datum}
是{\cf (quasisyntax \hyper{datum})}的缩写，
\\\quad\sharpindex{,}{\cf\#,}\hyper{datum}
是{\cf (unsyntax \hyper{datum})}的缩写，且
\\\quad\index{#,@\texttt{\#,\atsign}}{\cf\#,@}\hyper{datum}
是{\cf (unsyntax-splicing \hyper{datum})}的缩写。
\end{entry}

%%% Local Variables:
%%% mode: latex
%%% TeX-master: "r6rs"
%%% End:
